from pyspark import SparkConf
from pyspark import SparkContext

if __name__ == '__main__':
    conf = SparkConf().setMaster("local[*]").setAppName("spark01")
    sc = SparkContext(conf=conf)

    # # 第一个例子
    rdd1 = sc.parallelize(range(1, 21))
    rdd2 = sc.parallelize(range(10, 31))

    # rdd2 = rdd1.sample(False, 0.4, 2)

    rdd3 = rdd1.union(rdd2)
    # rdd4 = rdd3.distinct() # 需安装软件太麻烦
    # rdd4 = rdd1.intersection(rdd2) # 需安装软件太麻烦
    print(rdd3.collect())
